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摘要 : 
[目的 ] 检 验 主要 科技 论文 数据 库 作 者 识别 号 的 覆盖 范围 与 准确 性 ， 并 验证 其 能 否 直 接 用 于 科学 学 与 
科技 政策 的 实证 研究 。 
[方法 ] 以 825 位 华人 科学 家 的 发 表 论 文 为 标准 数据 集 ， 通 过 检索 和 收集 科技 论文 数据 库 中 科学 家 i 
别 号 及 其 论文 信息 ， 计 算数 据 的 覆盖 率 、 准 确 性 和 稳健 性 ， 并 运用 双重 差分 法 进行 实验 复 现 检验 
数据 库 的 适用 性 。 
[结果 ] 第 一 ，WOS、Scopus、AMiner 和 OpenAlex 四 个 数据 库 可 检索 到 90% 以 上 的 华人 科学 家 识别 
fj, ORCID 禾 盖 率 不 足 50%; 第 二 ，Scopus 的 准确 性 最 高 为 85.2%, OpenAlex 最 低 仅 为 51.2%; 
第 三 ， 直 接 使 用 数据 库 作 者 识别 号 的 数据 用 于 实证 研究 会 引入 不 可 忽视 的 误差 。 

[局 限 ]; 准 确 集 主 要 由 青年 科学 家 组 成 ， 学 科 层 面 未 履 盖 社会 科学 与 人 文科 学 ， 具 有 一 定 的 局 限 性 。 
[结论 ] 当前 主要 数据 库 的 作者 识别 号 还 不 能 直接 应 用 于 大 规模 数据 的 实证 研究 ， 可 通过 建立 标准 化 
的 科学 家 成 果 认 证 信息 平台 来 提高 中 国 作 者 姓名 识别 准确 性 。 
关键 词 : 科技 论文 数据 库 ; 作者 识别 号 ;姓名 消 歧 ; 
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Abstract 

[Purpose] To evaluate the coverage and accuracy of author identification number (author ID) of the major 
bibliographic databases and to assess whether they could be directly used in empirical research. 

[Methods] The ground truth data set consists of articles from 825 Chinese scientists. The coverage, 
accuracy, and robustness of each author ID are calculated by retrieving and collecting the IDs of scientists 
and their respective publication information in the bibliographic databases. The validity of the author IDs 
for empirical research is assessed by replicating a top journal empirical article using the data collected 
through author IDs. 

[Results] First, WOS, Scopus, AMiner, and OpenAlex can retrieve more than 9096 of Chinese scientists' 
identifiers, while ORCID's coverage is less than 5096. Second, the accuracy of Scopus is the highest at 
85.2%, and the accuracy of OpenAlex is the lowest at only 51.2%. Third, directly using the publication 
data collected through author IDs for empirical research will introduce non-negligible bias. 

[Limitations] The ground truth data set is limited, because it is mainly composed of young scientists, and 
lack scientists from social sciences and humanities. 

[Conclusion]At present, the author identification number of the major databases cannot be directly applied 
to the empirical research of large-scale data. A standardized information platform for scientists’ 
publications is needed to overcome the author-name disambiguation problem. 


Keywords: Bibliographic databases; Author identification number; Author-name disambiguation; 


1 引 


mk 


当今 世界 百年 未 有 之 大 变局 加 速 演进 ， 世 界 经 济 陷 入 下 行 周期 ， 各 主要 大 国 围绕 
科技 制高点 的 竞争 空前 激化 ， 科 技 创新 成 为 国际 战略 博弈 的 主要 战场 。 科 技 竞 争 的 决 
定性 力量 在 于 人 才 ， 实 施 人 才 强 国 战略 已 经 成 为 党 和 国家 一 项 重大 而 紧迫 的 任务 。 习 
近 平 总 书记 在 中 央 人 才 工 作 会 议 上 指出 ， 尽 管 “ 我 国 已 经 拥有 一 支 规 模 宏大 、 素 质 优 
民 、 结 构 不 断 优化 、 作 用 日 益 突出 的 人 才 队 伍 ”， 但 是 “人 才 发 展 体制 机 制 改革 “ 破 ” 
得 不 够 、“ 立 ”得 也 不 够 ， 既 有 中 国 特色 又 有 国际 竞争 比较 优势 的 人 才 发 展 体制 机 制 
还 没 真正 建立 ” 叫 。 十 八大 以 来 ， 我 国 科 学 研究 取得 新 的 历史 性 成 就 ， 我 国 高 质量 论 
文 首次 跃 居 世界 第 一 站， 我 国正 处 于 从 量 到 质 、 从 追赶 到 引领 的 关键 节点 。 在 研发 投 
入 持续 增长 与 高 等 教育 长 足 进 步 的 背景 下 ， 建 设 符合 科学 研究 规律 、 文 持原 始 创新 的 
人 才 体 制 机 制 ， 是 建设 科技 强国 的 关键 。 其 中 ， 包 括 薪酬 设计 由、 人 才 评 价 在 内 的 激 
励 制 度 是 人 才 发 展 体制 机 制 的 基础 由， 关乎 我 国 科 技 资 源 投入 到 产 出 的 转化 效率 ， 吸 
需 长 期 深入 研究 。 

人 才 机 制 体 制 的 研究 离 不 开 科 学 学 理论 与 实证 研究 的 支撑 。 人 才 评 价 、 人 才 计 划 
还 是 激励 制度 的 改革 ， 都 需要 建立 在 精准 的 政 集 评估 的 基础 上 。 这 要 求 研究 单位 和 研 
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究 数据 从 以 往 的 地 区 与 单位 层面 ， 精 细 化 到 科学 个 人 与 团队 层面 。 其 中 ， 科 技 论文 数 
据 是 不 可 或 缺 的 基础 数据 ，Web of Science、Scopus 等 数据 库 常 被 用 来 研究 科学 家 的 评 
价 E9、 流 动 [与 激励 四 等 问题 。 但 是 ， 大 量 科 学 家 共享 了 同样 的 姓氏 与 名 字 (或 名 字 
AEE) ， 致 使 将 数据 库 中 姓名 相同 的 作者 区 分 为 现实 中 不 同 的 科学 家 《作者 姓名 消 
BO) 成 为 一 个 较 大 挑战 ， 这 一 现象 在 华人 群体 中 尤其 严重 001。 不 解决 这 个 问题 ， 就 无 
法 准确 进行 科学 家 层面 的 实证 研究 ， 理 论 研究 和 政策 研究 更 无 从 谈 起 。 

因此 ， 本 文 使 用 Shi 等 上 搜集 的 825 位 华人 科学 家 发 表 论 文 标准 数据 集 来 检验 主 
要 科技 论文 数据 库 Web of Science、Scopus、OpenAlex、ORCID 以 及 AMiner 的 作者 识 
别 号 的 履 盖 范围 与 准确 性 ， 并 通过 复 现 实验 检验 数据 库 识 别 号 能 否 直 接 用 于 实证 研究 。 
本 文 的 章节 安排 如 下 ， 第 二 部 分 对 相关 研究 进行 梳理 ， 第 三 部 分 介绍 研究 数据 与 方法 ， 
第 四 部 分 介绍 研究 结果 ， 最 后 进行 总 结 与 讨论 。 

2 相关 研究 

当前 作者 姓名 消 歧 的 方式 有 两 种 : 通过 算法 自动 生成 和 作者 自我 汇报 〈 认 领 ) 。 
前 者 的 覆盖 范围 更 全 ， 后 者 的 准确 性 更 高 。 作 者 姓名 消 歧 算法 使 用 分 析 型 或 模式 识别 
型 的 算法 将 作者 姓名 相似 的 论文 进行 聚 类 ， 自 动 生成 作者 识别 号 必 5。 其 中 最 著名 的 
是 由 Torvik 和 Smalheiser F 2009 年 开发 的 针对 MEDLINE 数据 库 的 作者 姓名 消 歧 算法 ， 
作者 的 算法 和 消 歧 数据 最 终 被 整合 进入 PubMed 数据 库 风 ， 为 诸如 科学 家 合作 05、 科 
学 研究 方向 选择 09、 人 性 别 问题 b4、 同 行 评 议 09 等 科学 学 与 科学 经 济 研究 议题 奠定 了 基 
础 。 遗 憾 的 是 ，Torvik 和 Smalheiser 的 数据 仅 文 持 医学 与 生命 科学 领域 的 研究 ， 无 法 
应 用 在 更 广泛 的 学 科 上 09。OpenAlex 使 用 机 器 学 习 算 法 将 其 所 有 论文 作者 进行 了 姓名 
消 歧 处 理 ， 并 开源 了 算法 源 代码 和 数据 !， 这 为 科学 学 研究 注入 新 的 动力 。 此 外 ， 大 
多 数 其 他 消 皮 算法 的 作者 并 没有 提供 开源 的 算法 与 数据 ， 复 现 算法 所 需要 的 算 力 和 资 
源 也 往往 超过 了 科学 学 研究 人 员 的 能 力 。 

为 了 解决 数据 库 姓名 歧义 的 问题 ， 各 主要 科技 论文 数据 库 运 营 商 与 其 他 非 营 利 组 
织 选择 了 另 一 条 技术 路 线 。2008 年 ，Web of Science 数据 库 (WOS) 推出 了 身份 唯一 
识别 符 ResearcherID， 科 学 家 可 以 注册 ResearcherID， 自 行 认领 Web of Science 数据 库 
内 的 论文 。2012 年 ， 非 盘 利 组 织 Open Researcher and Contributor Identifier (ORCID) 
发 布 用 户 标识 符 ， 作 者 可 以 注册 ORCID， 并 在 其 平台 维护 个 人 的 学 习 与 工作 履历 ， 以 
及 论文 发 表 记 录 。 如 今 ， 很 多 国际 期 刊 要 求 作 者 在 提交 初稿 时 同时 指定 其 ORCID", 
Scopus 数据 库 的 Scopus Author Identifier (Scopus AuthorID〉 则 综合 了 自动 生成 算法 与 
科学 家 自主 反馈 的 方式 ?。 


| 算法 的 说 明 参 考 https://docs.openalex.org/api-entities/authors/author-disambiguation; 源 代码 位 于 https://github.com/ou 
rresearch/openalex-name-disambiguation/tree/main 。 


? Web of Science 目前 也 采用 了 自动 生成 算法 与 科学 家 自主 认领 相 结合 的 方式 。 


数据 库 的 作者 识别 号 为 以 科学 家 个 人 或 团队 为 研究 单位 的 科学 学 研究 提供 了 新 的 
高 质量 研究 数据 。 例 如 ，Moed 等 使 用 Scopus AuthorID KARE RREZE, Khurana 
和 Sharma 联合 使 用 Researcher ID, AuthorID 和 ORCID 来 研究 h 指数 如 何 用 于 科学 家 
的 评价 I。 相关 数据 近 些 年 开始 被 应 用 于 中 国 科学 家 的 研究 ， 如 Zhao 等 使 用 ORCID 
的 数据 证 实 海归 科学 家 并 没有 表现 出 比 本 土 科 学 家 更 强 的 学 术 发 表 能 力 乓 ， 这 一 结论 
与 学 术 界 的 认 知 相悖 >。 

科技 论文 数据 库 作者 识别 号 的 准确 性 与 履 盖 范围 直接 影响 了 使 用 这 些 数据 的 实证 
论文 的 信 度 与 效 度 。 使 用 不 准确 的 数据 得 出 的 结论 可 能 是 具有 误导 性 的 ， 使 用 准确 但 
是 覆盖 范围 不 全 的 数据 得 出 的 结论 往往 缺乏 代表 性 。 因 此 ， 必 须 检验 科技 论文 数据 库 
作者 识别 号 的 适用 性 。Aman 使 用 193 名 德国 莱 布 尼 兹 奖 获 得 者 的 数据 证 实 了 Scopus 
AuthorID 的 查 全 率 和 精准 度 分 别 高 达 97% 和 100%P314， 并 且 证 实 可 以 用 Scopus 
AuthorID 来 追踪 科学 家 的 跨国 流动 。Kawashimal 和 Tomizawa 使 用 日 本 科学 资助 数据 
Æ KAKEN 证 实 Scopus AuthorID 的 查 全 率 和 精准 度 分 别 为 98% 和 99%41°. Boudry 和 
Durand-Barthez 则 发 现 ORCID 与 ResearcherID 对 一 组 法 国 科 学 家 的 覆盖 率 均 不 足 20%, 
且 大 量 ID 没有 涵盖 完整 的 发 表 记 录 上 请。 可 见 ， 科 技 论文 数据 库 作 者 识别 叶 的 准确 性 
与 覆盖 范围 针对 不 同 的 群体 差异 显著 。 特 别 是 ， 当 前 的 研究 中 没有 针对 华人 科学 家 和 群 
体 的 检验 ， 这 便 限 制 了 相关 作者 识别 符 在 我 国 科 学 学 与 科技 政策 研究 中 的 应 用 。 


3 数据 与 方法 
3.1 标准 数据 集 


本 文 使 用 Shi 等 上 搜集 的 825 位 华人 科学 家 发 表 论文 作为 标准 数据 集 ( 表 D 。 该 
数据 集 涵盖 了 一 批 于 1997 年 至 2014 年 之 间 获 得 博士 学 位 的 华人 科学 家 ， 平 均 毕 业 年 
份 为 2007 年 。 其 中 ，14% 为 女性 ，18% 在 中 国 大 陆 取得 博士 学 位 ，65% 在 美国 获得 博 
士 学 位 。 截 止 2019 年 ，49% 的 科学 家 在 中 国 大 陆 的 学 术 机 构 工作 ，42% 在 美国 的 学 术 
机 构 工 作 ， 其 他 科学 家 主要 在 欧洲 、 日 本 与 中 国 香港 地 区 工作 。 该 数据 集 涵 盖 了 所 有 
自然 科学 的 领域 ， 工 程 与 材料 科学 和 医学 领域 的 科学 家 最 多 ， 分 别 占 到 22965 2196; 
地 球 科 学 领域 的 科学 家 最 少 ， 但 占 到 了 9%。 因 此 ， 该 数据 集 作 为 标准 数据 集 ， 具 有 一 
定 代表 性 。 
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3 后 文中 将 看 到 ， 这 一 结论 很 有 可 能 是 由 于 ORCID 数据 的 缺失 造成 的 。 

4 此 处 需要 注意 的 是 ， 作 者 并 没有 收集 到 完整 的 科学 家 发 表 清单 ， 作 者 定义 的 查 全 率 是 主要 Scopus AuthorID 18 m 
文 占 到 所 有 AuthorID 论文 的 比重 ， 因 此 作者 可 能 高 估 了 查 全 率 。 
5 作者 估计 的 是 科学 资助 级 别 的 查 全 率 和 精准 度 ， 资 助 项 目 往往 只 能 代表 一 个 科学 家 3-5 年 的 发 表 记 录 ， 在 这 样 的 
时 间 维 度 上 ， 碍 全 率 和 精准 度 都 很 有 可 能 被 高 估 。 比 如 ， 一 个 科学 家 可 能 在 不 同 的 职业 生涯 阶段 分 别 主持 了 不 同 的 
研究 项 目 ， 算 法 较 容易 将 不 同 阶段 的 同一 个 科学 家 识别 成 为 不 同 的 作者 ， 从 而 生成 不 同 的 ID， 从 项 目 级 别 来 看 ， 
这 样 的 ID 非常 准确 ， 但 是 从 科学 家 的 几 倍 来 看 ， 这 样 的 ID 每 一 个 都 不 够 准确 。 


Shi 等 0 从 科学 家 的 个 人 主页 (41%) ~ AKER (39%) . Researchgate (12%) 
等 来 源 收集 了 这 些 科 学 家 从 博士 毕业 开始 至 2019 年 的 发 表 在 SCI/SSCI 索引 期 刊 的 所 
有 论文 发 表 记 录 ° (R2) 。 数 据 集 中 科学 家 平均 每 人 发 表 论文 56 篇 ” 

表 1 标准 数据 集 特 征 


Tablel Characteristics of the standard dataset 


变量 样本 量 均值 标准 差 最 小 值 最 大 值 

博士 毕业 年 份 824 2007 2.69 1997 2014 
dev 825 0.14 0.35 0 1 
在 中 国 大 陆 获得 博士 学 位 825 0.18 0.38 0 1 
在 美国 获得 博士 学 位 825 0.65 0.48 0 1 
在 中 国 大 陆 工作 (2019 年) 825 0.49 0.50 0 1 
在 美国 工作 (2019 年 ) 824 0.42 0.49 0 1 
数学 与 物理 825 0.18 0.39 0 1 
化 学 825 0.15 0.36 0 1 
信息 科学 825 0.14 0.35 0 1 
生命 科学 825 0.21 0.41 0 1 
工程 与 材料 科学 825 0.22 0.42 0 1 
地 球 科学 825 0.09 0.29 0 1 

论文 数量 825 56.03 73.34 1 1174 


大 陆 科 学 家 的 论文 数量 
海外 华人 科学 家 的 论文 数量 


表 2 标准 数据 集 数据 来 源 


Table2 Data sources ofthe standard dataset 


数据 来 源 个 人 认证 无 个 人 认证 
个 人 简历 与 主页 341 
谷歌 学 术 314 5 
Rearchgate 99 
ORCID 31 
Publons 12 13 
PubMed/ INSPIRE/Linkin 10 


HE. 谷歌 学 术 与 Publons 会 显示 该 账号 是 否 经 过 科学 家 个 人 认证 。 
3.2 科技 论文 数据 库 作 者 识别 号 与 发 表 论 文 


本 文 根 据 标准 数据 集中 科学 家 的 工作 履历 以 及 研究 领域 从 科技 论文 数据 库 检索 科 
学 家 对 应 的 作者 识别 号 。 本 文选 择 科 学 学 与 科技 政策 研究 中 最 常用 的 四 个 科技 论文 索 
引 数 据 库 ，Web of Science，Scopus，OpenAlex 与 AMiner， 前 三 个 数据 库 提 供 了 作者 
个 人 识别 号 (AuthorID〉，AMiner 则 提供 了 包含 论文 列表 的 科学 家 个 人 主页 。 

ORCID (Open Researcher and Contributor Identifier， 开 放 研 究 者 与 贡献 者 身份 识别 
码 ) 是 由 非 营利 性 组 织 ORCID 于 2012 年 10 月 16 日 推出 并 发 布 的 用 户 标识 符 。 通 过 
给 每 位 注册 的 科学 家 分 配 唯一 的 16 位 数字 标识 符 ， 为 研究 者 提供 唯一 的 喘 份 标识 。 科 


6 其 中 ，60 位 科学 家 的 数据 集 存在 若干 年 份 缺失 。 对 于 这 些 科 学 家 ， 在 后 续 计 算 时 ， 缺 失 年 份 的 论文 数据 统一 进行 
了 删除 。 特 别 地 ， 如 果 使 用 765 位 拥有 完整 论文 发 表 数据 集 的 科学 家 论文 集 作 为 标准 数据 集 ， 本 文 的 研究 结论 不 会 
发 生 改 变 。 
7 数据 集中 包括 三 位 高 能 物理 领域 的 科学 家 ， 分 别 发 表 了 850 篇 、919 篇 和 1174 篇 论文 ， 从 标准 数据 集中 删除 这 三 
位 科学 家 不 会 改变 本 文 的 研究 结论 。 


学 家 可 以 将 在 ORCID 平台 中 关联 自己 发 表 在 WOS 与 Scopus 中 的 论文 ECq。2012 年 
ORCID 系统 整合 进入 WOS ResearcherID 。 特 别 需要 注意 的 是 ， 当 论文 准确 集中 包含 的 
ORCID 来 源 数 据 中 没有 谷歌 学 术 或 者 Researchgate， 且 ORCID 发 表 记 录 完 整 的 科学 家 ， 
此 处 要 检验 的 是 ORCID 作为 单一 数据 源 的 效果 ， 与 标准 集 不 同 。 

Web of Science (WOS) 创建 于 1964 年 ， 履 盖 了 自然 科学 、 社 会 科学 、 艺 术 和 人 
文学 科 等 全 球 范 围 内 的 学 术 期 刊 、 会 议论 文 和 引用 数据 ， 其 科学 引文 索引 CSCD 和 社 
会 科学 引文 索引 〈SSCI) 数据 集 是 科学 学 与 科技 政策 研究 的 权威 数据 集 。 截 止 到 2023 
年 12 月 ，SCI 共 收 录 超 过 9,500 本 杂志 和 6,100 万 篇 论文 ，SSCI 共 收 录 超 过 3,500 本 
杂志 和 1,000 万 篇 论文 。2008 年 起 ，Web of Science 推出 身份 唯一 识别 符 ResearcherID。 
一 开始 ，ResearcherID 系统 要 求 用 户 自行 注册 ， 注 册 后 ， 可 以 将 自身 的 ResearcherID 
与 Web of Science 中 的 论文 进行 连接 。 之 后 ，ResearcherID 引入 身份 自动 生成 算法 将 没 
有 作者 认领 的 论文 分 类 生成 作者 识别 符 忆 1。 

Scopus 是 Elsevier 于 2004 年 推出 的 摘要 和 引文 数据 库 ， 完 整数 据 库 可 以 追溯 到 
1966 年 ， 包 括 生 命 科 学 、 社 会 科学 、 自 然 科 学 和 医学 领域 。Scopus 数据 库 使 用 数据 库 
中 记录 的 作者 及 其 出 版 物 的 信息 ， 如 所 属 单位 、 学 科 领 域 、 文 章 标 题 、 引 用 和 合 著 者 ， 
基于 先进 算法 为 每 位 作者 分 配 一 个 唯一 的 标识 符 ， 即 Scopus Author Identifier， 可 以 自 
动 区 分 同名 作者 以 及 匹配 作者 姓名 的 变化 中。 

AMiner 于 2006 年 3 月 推出 ， 是 新 一 代 科 技 情报 分 析 与 挖掘 平台 ， 由 清华 大 学 计 
算 机 科学 与 技术 系 教 授 唐 杰 率 领 团 队 建 立 ， 聚 合 了 全 球 各 个 国家 和 地 区 的 学 者 画像 、 
机 构 画 像 、 期 刊 画 像 等 数据 ， 和 履 盖 各 个 学 科 领 域 包括 自然 科学 、 社 会 科学 、 人 文科 学 
SEPSI, AMiner 从 分 布 式 网 络 中 提取 和 整合 学 术 数 据 ， 为 每 位 研究 人 员 创建 基于 语义 的 
个 人 资料 ， 使 用 生成 概率 模型 对 论文 、 作 者 和 发 表 地 点 等 主题 方面 进行 建 模 ， 分 析 和 
发 现 研究 人 员 社 交 了 网络 中 的 有 趣 模式 ， 以 及 基于 建 模 结果 实现 诸如 专业 知识 搜索 和 关 
联 搜索 的 若干 搜索 服务 ; 为 研究 人 员 提 供 了 一 个 档案 数据 集 C]。 

OpenAlex 是 OurResearch 于 2022 年 1 月 推出 的 一 个 免费 开放 的 全 球 学 术 研 究 数据 
库 ， 收 录 了 各 学 科 领 域 的 开放 获取 期 刊 和 研究 成 果 B0。OpenAlex 由 研究 成 果 、 作 者 、 
机 构 、 场 地 和 概念 五 种 类 型 的 实体 组 成 ， 继 承 了 微软 学 术 (Microsoft Academic Graph) 
数据 ， 并 通过 机 器 学 习 算 法 对 所 有 作者 进行 了 姓名 消 歧 B11。 

本 文 在 以 上 五 个 数据 库 中 对 标准 数据 集中 的 科学 家 进行 检索 ， 并 记录 下 对 应 的 科 
学 家 识别 号 及 其 论文 信息 。ORCID、WOS、Scopus 与 AMiner 四 个 数据 库 具 备 网 页 检 
索 功 能 ， 具 体检 索 步骤 ， 如 图 1 所 示 。 首 先 在 数据 库 检 索 界 面 输入 科学 家 信息 进行 检 
索 ， 如 姓名 、 工 作 机 构 等 ， 其 次 根据 标准 数据 集中 科学 家 的 教育 背景 、 工 作 经 历 、 研 
究 领 域 和 起 始 时 间 等 关键 信息 ， 从 检索 结果 中 选取 匹配 的 且 有 发 表 记录 的 识别 号 ， 如 
果 存 在 多 个 与 相关 信息 匹配 的 科学 家 识别 号 ， 则 记录 下 前 三 位 最 为 匹配 的 识别 号 


CAMiner 则 记录 下 当前 科学 家 所 属 网 页 地 址 ) ， 后 续 分 析 中 将 使 用 准确 性 最 高 的 ID 
作为 评判 标准 ， 最 后 收集 科学 家 论文 信息 ， 包 括 发 表 论 文 doi 号 、 标 题 、 期 刊 、 发 表 
年 份 、 入 藏 号 、 作 者 等 。OpenAlex 提供 的 是 PostgreSQL 数据 8， 本 文通 过 全 名 检索 在 
authors 表 中 匹配 得 到 作者 id 信息， 并 利用 该 id 信息 与 work 表格 中 author id 列 匹 配 ， 
得 到 其 论文 id (work id) 以 及 每 篇 论文 中 作者 的 机 构 信 息 Craw affiliation string) 。 
其 次 ， 进 一 步 从 数据 库 中 得 到 论文 相关 信息 ， 包 括 发 表 论文 do 号 、 标 题 、 期 刊 、 发 
表 年 份 、 入 藏 号 、 作 者 等 。 本 文 的 附件 以 科学 家 chen jianing 为 例 描述 了 在 不 同 数据 库 
中 的 检索 流程 以 及 科学 家 标识 号 和 论文 的 收集 记录 。 


数据 库 


标准 数据 集 


1. 科学 家 uniqueID : 若 有 多 条 信息 相 
符 ， 记 录 top3 科 学 家 ID 


信息 比 对 


2. 科学 家 论文 信息 : 如 下 ， 保 人 存 至 表 
格 。 表格 命名 为 "author name unique ID" 


es aaa | “学 者 姓名 ”| 
检索 字段 : | JESS | 
eee RRE Md | 
I 
| 


doi | 标题 | 期 乔 | Usa can 


| “学 科 领 域 
| “起 始 时 间 ” 


图 1 数据 库 检 索 基 本 流程 图 
Fig.1 Basic Flow Chart of Database Retrieval 


3.3 数据 库 论文 集 与 标准 数据 集 之 间 的 连接 


针对 WOS 5 ORCID 论文 集 ， 此 次 检索 获得 402 名 科学 家 的 ORCID， 总 计 24,181 
篇 论文 ，777 名 科学 家 的 1,115 WOS ResearcherID, il 45,485 篇 论文 。 通 过 采用 
WOS 数据 库 的 论文 入 藏 号 来 连接 ORCID 与 WOS 论文 集 与 标准 数据 集 。 

对 于 Scopus. AMiner 和 OpenAlex 数据 库 ， 分 别 按照 下 面 步 又 连接 数据 库 论 文集 
与 标准 数据 集 : 

第 一 步 ， 限 制 数 据 库 论文 集 范围 。 由 于 标准 数据 集 仅 收录 了 科学 家 发 表 在 SCI 与 
SSCI 索引 杂志 的 论文 ， 本 文 首先 根据 Journal Citation Report 中 每 年 收录 杂志 的 清单 ， 
将 数据 库 论文 集 限制 在 SCI 与 SSCI 收 录 论 文 范围 内 。 同 时 根据 标准 数据 集中 每 位 科学 
家 论文 的 覆盖 年 份 ， 将 数据 库 论 文集 限制 在 相同 年 份 发 表 的 论文 。 如 表 3 所 示 ， 
Scopus、AMiner 以 及 OpenAlex 的 数据 被 SCISSCI 覆盖 的 比例 分 别 为 72.9%、67.1% 
以 及 61.9%。 


8 OpenAlex 数据 的 具体 获取 方式 参见 https://docs.openalex.org/download-all-data/download-to-your-machine 


第 二 步 ， 通 过 数字 对 象 唯一 标识 符 (ODOD 连接 论文 。 在 前 一 步骤 基础 上 ， 如 果 
论文 的 DOI 相同 ， 直 接连 接 。Scopus、AMiner 和 OpenAlex 三 个 数据 库 的 连接 比例 分 
别 为 77.2%、65.5% 以 及 4.7%。 由 于 OpenAlex 涉及 到 的 备 选 ID 与 论文 数量 比 其 他 数 
据 库 高 出 两 个 量 级 ，[ 匹 配 到 标准 数据 集 论文 的 比例 要 显著 更 小 。 

第 三 步 ， 通 过 发 表 期 刊 、 发 表 年 份 与 标题 精确 匹配 。 对 于 DO! 信息 缺失 的 论文 
(数据 库 论 文集 与 标准 数据 集 其 一 缺失 ) ， 本 文通 过 发 表 期 刊 、 发 表 年 份 与 标题 精 有 
匹配 。 三 个 数据 库 在 这 一 步 的 匹配 率 分 别 为 $.1%、4.2% 以 及 0.296. 

第 四 步 ， 通 过 标题 模糊 匹配 ， 人 工 检查 。 对 于 发 表 期 刊 和 年 份 精确 匹配 ， 但 是 标 
题 无 法 精确 匹配 的 论文 对 ， 本 文 计 算 两 篇 论文 之 间 的 标题 相似 度 ( 定 义 为 去 除 符 号 后 
的 论文 标题 重合 单词 数量 占 论文 单词 总 数 的 比例 ) ， 然 后 对 相似 度 超过 80% 的 论文 进 
行人 工 比 对 确认 是 否 为 同一 篇 论文 “。 这 一 步 又 中 匹配 到 0.9% 的 Scopus 论文 和 0.7% 
的 AMiner 论文 。OpenAlex 涉及 的 论文 数量 过 于 庞大 ， 只 能 略 去 人 工 校对 这 一 步 。 
此 ，OpenAlex 的 准确 性 可 能 会 被 低估 1% 左 右 。 但 是 ， 后 文中 我 们 将 会 看 到 ， 这 一 比 


例 对 数据 库 最 终 的 准确 性 评价 的 影响 可 以 忽略 。 
表 3 数据 库 论文 集 与 标准 数据 集 匹配 过 程 


Table3 Matching process between database paper collection and standard dataset 
期 刊 /年 份 / 标题 模糊 下 ”准确 集 论 


ap 


ID Z ID ,we SCILSSCI 论 。 DOI 匹配 — Hgrssk wp à 
数据 库 TA 论文 数量 eee DOLUS MAREI SAIR SN 
E CUN T EO 配 论文 数量 对 论文 数量 。 者 的 数量 
ORCID 402 402 22,778 22,778 - - - 24,181 
wos 1,151 777 58,073 58,073 : : i 45,485 
46,430 35,833 2,390 433 
Scopus 847 813 63,702 (12.9%) (172%) (5.194) (0.994) 46,330 
46,878 30,717 1,951 351 
AMiner 891 757 69,846 (67.194) (65594) 42) 0.7%) 45,163 
717,032 33,851 1,387 
OpenAlex 16,870 798 1,157,866 (61.9%) (4.7%) (0.2%) 42,580 


通过 以 上 四 个 步骤， 可 筛选 出 各 数据 库 论文 集 与 标准 数据 集 之 间 的 交集 ， 用 于 评 
价 数据 库 作者 识别 号 的 效果 。 


3.4 判断 指标 


本 文 使 用 以 下 指标 评估 数据 库 作 者 识别 号 的 覆盖 率 、 准 确 性 与 稳健 性 。 对 于 检索 
得 到 多 个 作者 识别 号 的 科学 家 ， 本 文 将 其 平均 指标 作为 最 终 指标 。 

mE (CV): 该 数据 库 中 满足 检索 条 件 可 获取 作者 识别 号 的 科学 家 人 数 占 总 人 
数 的 比例 。 该 指标 决定 了 数据 库 的 适用 范围 。 

B3 精准 度 (B3 precision, BP) 、B3 fr4X (B3 recall, BR) 与 B3F1 分 数 〈B3 
Fl-score, BF1) ， 定 义 如 下 : 


[dtf 


? Openalex 涉及 到 的 论文 数量 过 大 ， 省 去 这 一 步 。 不 过 ， 由 于 这 一 步 实际 匹 配 的 论文 数量 很 少 ， 因 此 对 于 最 终结 果 
的 影响 很 小 。 


1 ID; N Gil 
BP = 一 X (1) 
N 24 |G 
1 |D; N G;l 
BR=—x (2) 
N i [Gi 
2 x BP x BR 
BF1 = 一 一 一 一 一 一 (3) 
BP+ BR 


其 中 ，Gi 表 示 科 学 家 i 的 标准 论文 数据 集 ，Di 表 示 科 学 家 在 数据 库 对 应 作者 识别 
符 下 论文 数据 集 ，N 表示 数据 库 中 检索 得 到 的 科学 家 人 数 ，|Di| 表 示 数 据 集中 的 元 素数 
量 。B3 准确 性 指标 是 文献 中 常用 的 衡量 算法 准确 性 的 指标 59。BP 描述 的 是 数据 库 中 
识别 出 来 的 科学 家 论文 有 多 少 比例 确实 是 科学 家 发 表 的 ，BC 描述 的 是 科学 家 实际 发 表 
的 论文 有 多 少 比例 确实 被 数据 库 识 别 出 来 。 可 见 BP 与 BC 存在 某 种 平衡 关系 ， 例 如 ， 
一 个 精准 度 高 的 算法 可 能 会 遗漏 更 多 的 论文 。 因 此 ， 本 文 使 用 其 调和 平均 数 来 表示 BP 
与 BC 的 平均 表现 。 

B3 准确 性 指标 衡量 的 是 每 个 科学 家 识别 号 的 准确 性 的 平均 值 。 为 了 衡量 数据 库 识 
别 号 的 稳健 性 ， 本 文 引 入 精准 度 与 查 全 率 的 标准 差 ， 定 义 如 下 : 


_ /lp: NG 
SDP = sa( Gl (4) 
D; NG; 
SDR = sd ( E J (5) 


3.5 实证 实验 

为 了 进一步 验证 作者 识别 号 能 否 用 于 科学 学 与 科技 政策 的 实证 研究 ， 本 文 将 不 同 
数据 库 中 识别 出 的 数据 集 复 现 Shi 等 上 的 研究 ， 检 验 不 同 数据 库 能 够 得 出 与 标准 数据 
集 一 致 的 研究 结论 。Shi 等 上 的 研究 问题 为 青年 华人 科学 家 回国 后 职业 生涯 《〈 相 比 于 
其 在 海外 学 术 界 工作 的 同学 而 言 ) 能 否 更 加 成 功 ? 文章 作者 使 用 了 标准 的 双重 差分 方 
法 ， 以 论文 发 表 数量 为 因 变 量 ， 以 归 国 科学 家 与 归 国 前 后 的 指标 变量 的 交 乘 项 为 核心 
自 变 量 ， 控 制 了 个 人 与 年 份 的 固定 效应 。 回 归 方 程 为 : 

Yi, = a + B PostReturn;, * Treat; + PostReturnj, t yi + Nt + Eito 

Hop, VRRP EX i 在 t 年 的 论文 发 表 数 量 ，PostReturnit 表 示 科 学 家 i Æ tF 
是 否 回 国 ，Treati; 表 示 科 学 家 是 否 为 归 国 科学 家 。 同 时 ， 论 文采 用 了 匹配 的 策略 ， 只 
有 年 龄 与 学 习 经 历 相 似 ， 科 研 能 力 接近 的 科学 家 才能 最 终 进入 回归 。 


4 实证 结果 
4.1 覆盖 率 与 准确 性 


如 表 4 所 示 ，WOS、Scopus、AMiner 以 及 OpenAlex 四 个 数据 库 的 识别 号 覆盖 率 
均 达 到 91% 以 上 ， 其 中 Scopus 的 覆盖 率 最 高 为 98.5%，OpenAlex 第 二 高 为 96.7%。 值 


得 注意 的 是 ，ORCID 的 履 盖 率 仅 仅 为 48.7%， 远 低 于 作者 的 预期 。 这 一 结果 虽然 好 于 
Boudry 和 Durand-Barthez25] 的 发 现 ， 但 仍然 意味 着 有 超过 一 半 的 华人 科学 家 没有 注册 
ORCID 或 者 没有 在 ORCID 中 维护 个 人 信息 ， 以 至 于 无 法 检索 获得 其 ORCID。 此 外 ， 
注意 到 标准 数据 集中 的 科学 家 已 经 是 青年 科学 家 群体 ， 如 果 考 虑 更 加 资深 的 华人 科学 
家 ，ORCID 的 履 盖 率 可 能 还 会 更 低 。 因 此 ， 从 履 盖 率 的 角度 来 看 ，WOS、Scopus、 
AMiner 以 及 OpenAlex 四 个 数据 库 可 以 找到 绝 大 多 数 的 华人 科学 家 识别 符 ， 可 以 用 于 


实证 研究 ; 但 是 ORCID 的 宪 盖 率 不 足 一 半 ， 用 于 实证 研究 可 能 会 带 来 不 可 忽略 的 偏差 。 
表 4 数据 库 识别 号 的 履 盖 率 与 准确 性 
Table4 Coverage and accuracy of database identification numbers 


数据 库 人 均 论 文 数量 标准 集 人 均 论文 数 CV BP BR BF1 SDP SDR 
ORCID 56.66 59.76 0.487 0.826 0.738 0.780 0.214 0.366 
WOS 64.09 57.38 0.942 0.645 0.728 0.684 0.311 0.356 
Scopus 56.49 54.03 0.985 0.831 0.874 0.852 0.158 0.180 
AMiner 57.52 58.47 0.918 0.736 0.724 0.730 0.224 0.268 
OpenAlex 168.50 56.33 0.967 0.397 0.724 0.512 0.254 0299 


不 同 数据 库 识别 号 的 精准 度 差异 显著 。Scopus 的 精准 度 最 高 为 83.1%, [Hix —Be 
FIEF AmanP??! fll Boudry 和 Durand-Barthez' CIRM, WEH Scopus 的 算法 在 华 
人 科学 家 群体 中 的 表现 低 于 其 在 其 他 族群 科学 家 群体 中 的 表现 。 令 人 意外 的 是 ， 
ORCID 的 精准 度 虽 然 比 WOS、AMiner 和 OpenAlex 更 高 ， 但 也 仅仅 为 82.6%， 并 没有 
达到 预想 中 的 接近 100% (理论 上 ORCID 的 数据 是 作者 个 人 维护 的 ， 因 此 应 该 非常 精 
HE) 。 本 文 认为 两 个 原因 共同 导致 了 这 一 现象 : 第 一 ， 检 索 到 了 错误 的 ORCID 导致 精 
准 度 为 零 ， 这 部 分 占 到 所 有 识别 号 的 2.7%; 第 二 ，ORCID 允许 作者 使 用 第 三 方 平台 
(如 Scopus, Crossref) 来 管理 其 个 人 数据 。 当 作者 将 第 三 方 平台 的 识别 号 与 ORCID 
连接 后 ，ORCID 会 自动 将 相关 平台 的 数据 导入 至 ORCID 中 ， 从 而 降低 了 精准 度 。 
WOS 和 AMiner 的 精准 度 分 别 为 63.5% 与 73.6%， 而 OpenAlex 的 精准 度 仅 仅 为 39.796, 
这 意味 着 这 三 个 数据 库 给 科学 家 分 配 了 非 本 人 发 表 的 论文 。 

不 同 数据 库 识别 号 的 查 全 率 相 对 接近 。Scopus 的 查 全 率 最 高 为 87.4%， 其 他 四 个 
数据 库 的 查 全 率 在 72.4% 至 73.8% 之 间 。WOS、Scopus 与 OpenAlex 的 查 全 率 高 于 精准 
度 ， 这 导致 其 作者 识别 号 会 高 估 科 学 家 的 发 表 数 量 。 其 中 ，OpenAlex 的 偏差 最 大 ， 高 
估 接 近 了 200%。 相 反 ，ORCID 与 AMiner 的 识别 号 则 会 低估 科学 家 的 论文 数量 ， 
ORCID 人 均 低 估 了 3.1 篇 论文 。 

ERE, Scopus 的 准确 性 最 高 ，F1- 分 数 达 到 85.2%， 比 其 他 数据 库 至 少 高 出 
7%， 这 可 能 得 益 于 Scopus 团队 对 作者 姓名 消 歧 算法 的 重视 与 持续 改进 ， 以 及 对 华人 
科学 家 群体 数据 集 的 关注 。 此 外 ，Scopus 数据 库 的 稳健 性 显著 高 于 其 他 四 个 数据 库 。 
如 图 2 PR, Scopus 的 综合 表现 最 好 。OpenAlex 的 准确 性 最 差 ，F1- 分 数 仅仅 为 51.2%, 
造成 这 一 结果 的 原因 可 能 是 ， 第 一 ，OpenAlex 没有 引入 科学 家 个 人 认证 与 校对 的 机 制 |; 
第 二 ，OpenAlex 没有 使 用 高 质量 的 华人 科学 家 数据 集 来 训练 其 算法 。 


do 


1-SDR BP 
——ORCID 
—WOS 
——Scopus 
—AMiner 
——OpenAlex 
1-SDP BR 


BF1 
图 2 数据 库 识 别 号 的 覆盖 率 与 准确 性 


Fig.2 Coverage and accuracy of database identification numbers 


4.2 异 质 性 


作者 姓名 消 歧 工 作 实际 上 是 将 某 位 作者 的 论文 《准确 论文 ) 从 一 组 作者 姓名 一 至 
的 论文 〈 备 选 论 文 ) 中 识别 出 来 。 备 选 论文 的 信息 与 准确 论文 的 信息 越 接近 ， 作 者 姓 
名 消 歧 的 挑战 越 大 。 当 科学 家 工作 的 单位 与 领域 中 同名 人 数 更 多 时 ， 往 选 出 其 准确 论 
文 的 难度 会 更 大 。 而 工作 单位 (包括 地 区 ) 与 领域 往往 是 实证 研究 中 的 重要 变量 ， 数 
据 的 偏差 将 直接 扭曲 研究 结论 。 

本 文 将 每 位 科学 家 的 工作 经 历 分 为 大 陆 与 海外 两 部 分 ， 分 别 考 察 数据 库 作 者 识别 
号 针对 不 同 地 区 华人 科学 家 的 准确 性 ( 表 5) 。 不 同 于 前 文 的 猜测 ， 大 部 分 数据 库 的 
作者 识别 号 〈 除 ORCID 之 外 ) 反而 对 华人 学 者 在 大 陆 工 作 期 间 发 表 的 论文 准确 度 更 高 。 
另外 ， 除 AMiner 之 外 ， 各 数据 库 都 会 高 估 科 学 家 的 论文 数量 ， 尤 其 对 于 在 大 陆 工 作 


期 间 的 科学 家 ， 高 估 数 量 更 多 。 
表 5 数据 库 识 别 号 对 不 同 地 区 华人 科学 家 的 准确 性 
Table5 Accuracy of database identification numbers for Chinese scientists in different regions 


数据 库 地 区 人 均 论 文 数量 标准 集 人 均 论文 数 BP BR BF1 
ig 39.17 38.96 0.819 0.817 0.818 

ORCID 大 陆 42.47 46.99 0.845 0.764 0.803 
WOS i 45.50 33.14 0.590 0.783 0.673 
大 陆 62.10 49.48 0.631 0.805 0.708 
ig 32.92 31.93 0.826 0.859 0.842 

Scopus " 

大 陆 47.72 44.52 0.837 0.884 0.860 
AMiner i 32.26 32.62 0.717 0.695 0.706 
大 陆 49.36 49.01 0.765 0.786 0.776 
siis i 108.32 32.78 0.372 0.713 0.489 
大 陆 127.80 48.89 0.438 0.721 0.545 
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本 文 进一步 考察 了 数据 库 识 别 号 准确 性 CPL 分 数 ) 的 学 科 差异 。 本 文 将 科学 家 分 
为 化 学 、 地 球 与 环境 科学 、 工 程 与 材料 科学 、 信 息 科 学 、 生 命 科 学 以 及 数理 科学 六 个 
领域 。 如 图 3 所 示 ， 各 数据 库 (OpenAlex 外 ) 在 信息 科学 领域 的 准确 性 都 远 低 于 其 他 
科学 领域 。Scopus 准确 性 的 学 科 差 异 较 小 ， 且 均 高 于 其 他 数据 库 的 最 高 水 平 。 

1 
0.9 
0.8 
0.7 
0.6 
0.5 
0.4 
0.3 
02 
0.1 

0 


ORCID WOS Scopus Aminer OpenAlex 
化 学 ”地 球 与 环境 科学 ”a 工程 与 材料 科学 ”信息 科学 ”生命 科学 ”数理 科学 


图 3 数据 库 识 别 号 准确 性 的 学 科 差 异 


Fig.3 Disciplinary differences in the accuracy of database identification numbers 
最 后 ， 本 文 将 各 数据 库 识别 号 准确 性 (Fl 分数) 与 科学 家 的 个 人 特征 进行 回归 。 
如 表 6 PR, ORCID, WOS 与 Scopus 数据 库 对 于 越 年 轻 的 科学 家 准确 性 越 高 ， 同 时 ， 
ORCID 与 AMiner 对 于 在 大 陆 工 作 的 科学 家 准确 性 更 高 ， 但 是 高 出 的 幅度 有 限 。 而 
OpenAlex 数据 库 对 于 女性 科学 家 准确 性 低 于 男性 科学 家 ， 这 意味 着 使 用 OpenAlex 可 
能 会 错误 估计 科学 家 科研 效率 的 性 别 差异 。 
表 6 识别 号 准确 性 与 科学 家 个 人 特征 
Table6 Accuracy of identification number and personal characteristics of scientists 


(1) (2) (3) (4) (5) 
ORCID WOS Scopus Aminer OpenAlex 
女性 -0.029 -0.021 -0.001 -0.023 -0.065** 
(0.051) (0.035) (0.017) (0.027) (0.027) 
毕业 年 份 0.012* 0.013** 0.006** 0.005 0.004 
(0.006) (0.005) (0.002) (0.003) (0.004) 
2019 年 在 大 陆 工 作 0.063* 0.033 -0.009 0.067 0.008 
(0.034) (0.026) (0.013) (0.020) (0.022) 
其 他 控制 变量 
学 科 是 是 是 是 是 
博士 学 位 国家 是 是 是 是 是 
样本 量 401 774 809 753 794 
对 数 似 然 0.084 0.059 0.027 0.025 0.028 


TE: CD - (5) 中 的 模型 设 定 为 一 般 线 性 回归 ， 以 识别 号 的 Fl 分 数 为 因 变 量 ， 样 本 量 与 表 4 
的 差异 源 自 变量 缺失 ， 标 准 误差 在 括号 内 ;显著 性 水 平 : * p<0.1,** p<0.05, *** p<0.01。 
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4.3 实证 研究 复 现 结果 
K 7 呈现 了 使 用 不 同 数据 库 获取 得 到 的 数据 集 复 现 Shi 等 0 研究 的 结果 。 其 中 ， 

C1) 列 中 汇报 了 Shi 等 上 研究 中 标准 数据 集 的 结果 ， 2) - C6) 列 使 用 各 数据 库 的 
结果 。 如 表 7 所 示 ， 标 准 数据 集 的 系数 估计 为 0210 (p<0.01，〉。 使 用 ORCID 5 
OpenAlex 进行 同样 的 估计 得 到 的 系数 均 不 显著 ， 这 可 能 是 由 于 ORCID 的 样本 量 过 少 ， 
而 OpenAlex 的 准确 性 较 低 。 尽 管 使 用 WOS. Scopus. AMiner 数据 估计 模型 可 以 得 到 
正 显著 的 系数 ， 但 是 ， 这 三 个 模型 都 会 高 估 实 际 系数 ， 高 估 的 幅度 分 别 为 55%、99% 
与 8$3%， 高 估 的 幅度 是 不 可 忽略 的 。 尤 其 是 Scopus 数据 库 ， 尺 管 在 覆盖 率 、 准 确 性 与 
稳健 性 方面 均 好 于 其 他 数据 库 ， 但 是 其 高 估 的 幅度 高 达 99%， 极 大 限制 了 该 数据 库 的 
适用 性 。 因 此 ， 本 文 认为 ， 基 于 本 文 的 实践 ， 目 前 的 五 个 数据 库 识别 号 还 不 能 直接 应 
用 于 实证 研究 。 


表 7 复 现 实证 研究 的 结果 
Table7 Results of the reproduction of the empirical study 


(1) (2) (3) (4) (5) (6) 
GT ORCID WOS Scopus AMiner OpenAlex 
海归 * 回 国 后 0.210** 0.289 0.326** 0.418** 0.388" 0.094 
(0.076) (0.152) (0.094) (0.103) (0.096) (0.071) 
样本 量 4,191 688 2,530 3,019 2,329 3,092 
对 数 似 然 -8,276 -1,363 -5,542 -6,781 -5213 -7,966 


5A; 显著 性 水 平 : * p<0.1,** p<0.05, *** p«0.01. 
5 结论 与 讨论 

本 文 使 用 Shi 等 上 搜集 的 825 位 华人 科学 家 发 表 论 文 标准 数据 集 来 检验 科技 论文 
数据 库 Web of Science、Scopus、OpenAlex、ORCID 以 及 AMiner 的 作者 识别 号 的 履 盖 
范围 与 准确 性 。 研 究 发 现 ， 数 据 库 识别 号 的 准确 性 差别 较 大 ， 处 于 51.2% 至 85.2% 之 
间 ，Scopus 的 准确 性 最 高 ，OpenAlex 的 准确 性 最 低 。 其 中 ， 在 WOS, Scopus, 
AMiner 以 及 OpenAlex 四 个 数据 库 中 可 以 找到 绝 大 多 数 的 华人 科学 家 识别 符 ， 可 以 用 
于 实证 研究 ， 但 是 ORCID 的 履 盖 率 不 足 一 半 ， 用 于 实证 研究 可 能 会 带 来 不 可 忽视 的 偏 
差 。 最 后 通过 复 现 实验 进一步 揭示 数据 库 识别 号 的 准确 性 受到 科学 家 工作 地 区 以 及 学 
科 的 影响 ， 结 果 证 实 目 前 的 数据 库 识别 号 还 不 能 直接 应 用 于 实证 研究 。 

那么 应 该 如 何 使 用 科学 家 论文 数据 来 进行 实证 研究 ? 这 一 问题 的 答案 与 具体 研究 
样本 与 分 析 单位 密切 相关 。 当 分 析 单 位 具体 到 个 体 自然 人 且 样 本 量 不 大 时 ， 本 文 建议 
研究 人 员 收 集 科 学 家 的 个 人 完整 履历 ， 并 利用 刘 玮 辰 B3 与 Shit 等 开发 的 基于 科学 家 
职业 经 历 和 引文 网 络 的 姓名 消 歧 算法 ， 这 一 算法 的 准确 度 均 显 著 高 于 数据 库 的 作者 识 
别 号 准确 性 ， 运 算 效率 高 ， 且 得 到 了 国际 顶尖 期 刊 的 认可 。 当 进行 大 规模 数据 分 析 时 ， 
前 述 算 法 并 不 适用 ， 建 议 研究 人 员 首 先 使 用 小 规模 准确 集 数 据 对 数据 库 的 作者 识别 号 


进行 检验 ， 并 在 文中 汇报 研究 结果 的 稳健 性 。 此 外 ， 本 文 呼吁 国内 相关 机 构建 立 标准 
化 的 科学 家 成 果 认 证 信息 平台 ， 为 每 一 位 在 国内 工作 的 科学 家 分 配 唯 一 识别 号 ， 并 在 
政策 层面 激励 每 位 科学 家 主动 维护 成 果 信 息 。 这 不 仅 有 助 于 从 源头 上 解决 我 国 科学 家 
的 论文 作者 姓名 卜 义 问题 ， 还 可 以 为 改进 姓名 消 歧 算法 积累 宝贵 的 训练 数据 集 。 
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附件 

本 文 使 用 一 批 青年 科学 家 的 准确 集 数 据 ， 在 Web of Science, ORCID, Scopus, AMiner 
和 OpenAlex 数据 库 中 对 这 些 科学 家 进行 检索 ， 并 收集 科学 家 在 不 同 数 据 库 中 的 标识 号 和 
论文 数据 。 具 体 流程 如 下 : 第 一 步 ， 在 数据 库 检 索 界 面 输入 科学 家 信息 并 进行 检索 ， 如 姓 
名 、 工 作 机 构 等 ， 第 二 步 ， 根 据 检索 结果 与 待 测 数 据 集中 科学 家 的 姓名 、 教 育 背景 、 工 作 
机 构 、 研 究 领 域 和 起 始 时 间 等 关键 信息 进行 核对 ， 以 判定 是 否 为 同一 位 科学 家 ; 第 三 步 ， 
记录 下 科学 家 标识 号 ， 如 果 有 多 个 与 相关 信息 相 匹 配 的 科学 家 标识 号 ， 则 记录 下 前 三 位 最 
为 匹配 的 科学 家 标识 号 ，AMiner 记录 科学 家 网 页 链接 ; 第 四 步 ， 确 定 对 应 科学 家 后 ， 收 
集 并 保存 相关 论文 信息 至 表格 中 ， 每 个 表格 都 以 "author name unique ID” MZ, KHA 
本 信息 包括 : 论文 doi 号、 标题、 期刊、 年份 、 入 藏 号 、 作 者 等 。 图 1 是 此 次 进行 检索 的 
基本 步骤 。 


-| AMiner 
= sey trae [Opener 
标准 数据 集 


数据 检索 


1. 科学 家 uniqueID : 若 有 多 条 信息 相 
符 ， 记 录 top3 科 学 家 ID 


信息 比 对 


2. 科学 家 论文 信息 : 如 下 ， 保 存 至 表 


DER | 一 一 一 一 格 。 表 格 命名 为 "author name unique ID" 
人 | “学 者 姓名 ”| : 
检索 字段 : i | ,教育 背景 ' | 
Seien, "工作 机 构 "， "学科 领域 | .工作 机 构 " | [ oi | ames [eri ma | 作者 [ame]. | 
| 学 科 领 域 ”| 
| “起 始 时 间 ” | 


图 1 数据 库 检 索 基 本 流程 图 
Fig.1 Basic Flow Chart of Database Retrieval 


以 科学 家 chen jianing 为 例 〈 图 2)， 记 录 在 5 个 数据 库 中 进行 检索 并 保存 科学 家 标识 


Im] N Ma Mj M 口 
号 和 论文 数据 过 程 。 
A B G D E F 
1 uniquelD inst startyear — endyear Familyname Givenname 
66 |1 655 Dalian University of Technology 2003 2008 chen jianing 
67 |1 655 Lund University 2009 2009 chen jianing 
68 |1 655 CIC Nanogune & Donostia Internation 2010 2013 chen jianing 
69 |1 655 University of the Basque Country 2010 2013 chen jianing 
70 |1 655 Institute of Physics, CAS 2013 2021 chen jianing 


图 2 标准 数据 集中 chen jianing 基本 信息 


Fig.2 Basic information of chen jianing in the data set to be measured 
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1 Web of Science 


AAA 


第 一 步 ， 进 入 网 站 检索 界面 ，https:/www.webofscience.com/wos/author/search; 

第 二 步 ， 输 入 科学 家 姓名 ， 如 图 3 Arm; 

第 三 步 ， 根 据 科 学 家 工作 机 构 进行 精炼 检索 〈 图 3 ); 

第 四 步 ， 收 集 科 学 家 的 论文 信息 Cll: doi， 标 题 ， 期 刊 ， 年 份 ， 入 藏 号 ， 作 者 ， 
Researcher ID) 至 “2 chen jianing HPU-2037-2023”. 


+ 添加 姓名 的 不 同 拼写 形式 


图 3 Web of Science 数据 库 中 输入 chen jianing 姓名 


Fig.3 Entering chen jianing's name in Web of Science database 


5 Web of Science 上 的 如 下 结果 : 


Q_chenjianing (作者 姓 4 


精炼 依据 ofScences X ) 全 部 清除 
精炼 检索 结果 — 
O o/s 作为 组 合 的 记录 查看 合并 记录 
快速 过 滤 
包括 Web of Science 核心 合集 出 版 物 
s 1 Chen, Jia (Chen, Jiabin) © 
认领 状态 
已 认领 状态 East China Normal Universit 
已 认领 的 个 人 信息 Eas p nd Technol 
未 认领 的 个 人 信息 SHAN PLES 4i 
作者 姓名 


图 4 Web of Science 中 进一步 精炼 科学 家 工作 机 构 
Fig.4 Further refining the body of scientists working in Web of Science 


2 ORCID 
第 一 步 ， 通 过 网 址 https://orcid.org， 进 入 官网 ; 
第 二 步 ， 输 入 相关 信息 : first name, last name, institution name， 如 图 6 所 示 ; 
第 三 步 ， 核 对 关键 信息 是 否 一 致 〈 如 inst-startyear-endyear) (图 7); 
第 四 步 ， 收 集 科 学 家 的 论文 信息 〈 如 : doi， 标 题 ， 期 刊 ， 年 份 ， 入 藏 号 ， 作 者 ， 
ORCID ID, Researcher ID) #“chen jianing 0000-0002-7525-1424", 
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SIGN IN/REGISTER — English v 


ORCID |, _ 


ABOUT FOR RESEARCHERS MEMBERSHIP DOCUMENTATION RESOURCES NEWS & EVENTS SIGN IN 


Search 


ADVANCED SEARCH ~ 


jianing chen Dalian University of Technology Keyword 
[O Also search other name fields 


ORCID 1D 


Showing 1 of 1 results. 


so 
ORCID ID First Name Last Name Other Names Affiliations 
0000-0002-7525-1424 Janing Chen CIC nanoGUNE Consolider, Dalian University, Dalian University of Technology, Institute of 
Physics Chinese Academy of Sciences, Lund University Samhàlisvetenskapliga fakulteten 
so 


5 ORCID 中 输入 科学 家 关键 信息 
Fig.5 Key information for scientists entered in ORCID 


[iD] © is this you? Sion in to start editing SD mo 
I 


https-//orcid.org/ 


0000-0002-7525-1424 Jianing Chen 


Activities — 
Le 

Institute of Physics Chinese Academy of Sciences: Beijing. CN 

2013-07-01 to present | Professor (Lab for Optics) Show more detas 

Employment 

Source: F3 janing Chen 


CIC nanoGUNE Consolider: San Sebastian, País Vasco, ES 


2010-01-0! to 2013-06-30 | postdoc (Nanooptcs) Show more detas 
Emo! 

Source: © jianing Chen 

Lund University Samhallsvetenskapliga fakulteten: Lund, SE 

2009.01.01 to 2009-12-30 | Postdoc (Solid State Physics) Show more detas 
Employment 


Source: ©) jianing Chen 


Education and qualifications (2 


Dalian University of Technology: Dalian, Liaoning. CN 


2003-09-01 to 2008-12-20 | PRO (Physics) Shen more deta 
Education 


Source: ©) joning Chen 


Datian University: Dalian, CN 


1999-09-01 to 2003-06-30 | Undergraduate (Physics) show more detas 
Education 


Source: ©) jianing Chen 


6 ORCID 中 关键 信息 比 对 
Fig.6 Comparison of key information in ORCID 


3 Scopus 

第 一 步 ， 进 入 网 站 进行 检索 ，https://www.scopus.com/search/form.uri?display=authorLo 
okup#author; 

第 二 步 ， 输 入 相关 信息 ， 如 : first name, last name, institution name， 并 进行 检索 ， 如 


Al 7; 
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第 三 步 ， 核 对 教育 经 历 、 


如 图 8; 


第 四 步 ， 收 集 科 学 家 的 论文 信息 《〈 如 : 


工作 机 构 ， 学 科 背 景 、 起 始 时 间 等 是 否 一 致 ， 


doi; 标题 ， 期 刊 ， 年 份 ， 


ups ID) 至 “Chen Jianing 55864209500.csv* 


Start exploring 


Discover the most reliable, relevant, up-to-date research. All in one place. 


New 
(à Documents A Authors & Researcher Discovery — $$ Affiliations 


入 藏 号 ， 作 者 ， 


Search tips © 


New 


Search authors using: (8) Authorname C) ORCID (CO) Keyword 


Enter last name * 
Chen 


Enter affiliation name 
Dalian University of Technology 


Enter first name 
Jianing 


图 7 Scopus 中 输入 科学 家 关键 信息 


Fig.7 Entering key information about scientists in Scopus 


Author information x 


Institution history 


2008 - 


2008 - 
2017 - 


2015 - 


2011 
2011 
2011 


2023 Institute of Physics Chinese Academy of 
Sciences 


2023 Chinese Academy of Sciences 


2018 University of Chinese Academy of 


Sciences 


2018 Collaborative Innovation Center of 
Quantum Matter 


2017 Collaborative Innovation Center of 
Quantum Matter 


2017 Collaborative Innovation Center of 
Quantum Matter 


2017 Collaborative Innovation Center of 
Quantum Matter 


2014 CIC nanoGUNE 


2013 Donostia International Physics Center 


-2013 CSIC UPV Centro de Fisica de Materials 


CFM 


2010 NanoLund, Lund University 


2010 Lunds Universitet 


2008 Dalian University of Technology 


图 8 Scopus 中 科学 家 关键 信息 比 对 


Fig.8 Comparison of scientists' key information in Scopus 


4 AMiner 


第 一 步 ， 进 入 网 站 ，https:/www.AMiner.org/; 
第 二 步 ， 输 入 相关 信息 ， 如 : first name, last name, institution 等 ， 进 行 检索 ， 如 图 9; 


记录 ID 号 ， 


Sco 
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第 三 步 ， 查 看 科学 家 基本 信息 : 教育 背景 、 工 作 机 构 、 起 始 时 间 等 ， 判 断 关 键 信息 是 
否 一 致 ( 图 10); 

第 四 步 ， 收 集 科学 家 的 论文 信息 (如 : doi， 标 题 ， 期 刊 ， 年 份 ， 作 者 ) 至 “chen 
jianing AMiner.cn/profile/jianing-chen/5405604 1 dabfae91d3fdb590" . 


Author chen jianing Q AdvancedSeachy Q 日 


Expert Patent 


Query result contains “chen jianing’( 111 Results, 


Position v Relevance 三 


Assistant Research(1) 


Associate Professor(1) Chen Jianing 
Research(1) H-index!4 | $Papers:29 #Citations:503 
+ [Er TR State Key Laboratory for Diagno iseases, The First Affiliated Hospital, School of Me 
310003, China; Collabor e zhou 
Organization v Search area: 1-17 T Cell Receptor Chronic Hepatitis B S ecta el 
fi eA a tar T. t th 
Harbin Veterinary Research 
Institute(4) Jianing Chen ( 陈 佳 宁 ) 
br APART CORE H-index20  $Papers75 [i] #Citations:3744 
of Wenzhou Medical 
University(3) 91 arch fl University 


University of Sheffield(2) 
Sun Yat-sen University(2) 


Tianjin University(2) 


9 AMiner 中 科学 家 chen jianing 关键 信息 
Fig.9 Key information about scientist chen jianing in AMiner 


University of Chinese Academy of Sciences 


[A ^ =a 
& Follow *. Claim t 分 享 
Bio 


2017-03-01-2017-09-30 国家 自然 科学 基金 I 
委员 会 , 11 


奖励 信息 
O) 馈 角 泰 基础 光学 奖 ,, 研究 所 (学 校 ) , 2016 
(2) 物理 所 新 人 奖 , 研究 所 (学校 ) , 2016 1 


Education 


2003-09--2008-12 大 连理 工大 学 博士 
1999-09--2003-06 大 连理 工大 学 学 士 


Experience 
2013-07~ 现 在 , 中 国 科 学 院 物理 研究 所 , 研究 员 


2010-01~2013-06, 西 班 牙科 技 部 , 博士 后 
2009-01 2009-12, Hj Sb RAE AS, 博士 后 


图 10 AMiner 中 输入 科学 家 姓名 chen jianing 


Fig.10 Entering the scientist's name chen jianing in AMiner 
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在 Web of Science, ORCID, Scopus 和 AMiner 数据 库 中 收集 科学 家 chen jianing 论文 数 
据 并 保存 至 表格 中 (图 11)， 表 格 以 “author name unique ID" MH, AMiner 科学 家 ID 


为 科学 家 网 页 链接 。 


5) 2 chen jianing HPU-2037-2023 2023/11/4 21:36 XLS THE 31 KB 
[5) chen jianing 0000-0002-7525-1424 2023/11/4 21:36 XLS 工作 表 5 KB 
[5| Chen Jianing 55864209500 2023/11/4 21:36 XLS 工作 表 12 KB 
[S chenjianing aminer.cnprofilejianing-chen54.. 2023/11/21 0:20 XLS 工作 表 9 KB 


图 11 WoS, ORCID, Scopus 和 AMiner 数据 库 中 chen jianing 的 论文 数据 表格 
Fig.11 Data table of chen jianing's papers in WoS, ORCID, Scopus and AMiner databases 
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